金融咨询网近期会进行系统维护,短暂的等待是为了更稳定的服务,感谢您的支持。
  • 快捷搜索
  • 全站搜索

数据中心基础设施自维护模式探索

2016-03-28 15:13:38作者:中国工商银行数据中心(北京) 孙爽 李宏琛编辑:金融咨询网
随着金融业对数据中心基础设施与自身安全防范的日趋重视,数据中心的自维护模式必将逐渐成为行业内多数企业的首选。在实行自维护模式期间,需要在技术、管理制度和人员三个层面做好全面部署,从而更好地发挥自维护模式的高效性。

金融行业数据中心对基础设施的可用率要求很高,因为一旦出现基础设施暂时不可用情况时将直接导致业务的大面积间断,同时也会给企业的社会形象造成负面影响,因此,一般要求机房可用性指标达到99.99%。

  为保障数据中心基础设施的正常稳定运转,主要存在外包、租赁及自维护三种运行模式。对于外包,基础设施管理部门仅仅对设备资产、维护合同和服务质量进行管理,全部利用外部资源完成基础设施的运行维护工作,这一模式虽然可为企业节省人力资源费用,但对基础设施的掌控度却较差;租赁在本质上不会发生相关的设备采购费用,只需支付运行费用,但完全依靠第三方托管单位,系统维护处于被动状态;自维护运行模式则完全依靠自己的资源与技术来完成运行维护工作,外部只需提供少量的技术与备件支持。较前两种模式而言,自维护运行模式虽然需投入大量的人力、物力和财力,但却能做到对基础设施状态、数据的实时掌控,维护团队在出现突发状况时可以做出快速的应急反应。随着金融业对基础设施重视度的提升以及新技术的应用,行业内各大数据中心将基础没施的运行维护模式向自维护方向转变已是大势所趋。

  所谓自维护,即依托自身专业技术人员,充分发挥现有技术手段对数据中心的基础设施类设备进行全方位的运行维护和管理,跟踪掌握设备在整个生命周期的实时状态,并依据设备状态等信息对设备进行预维护和保养工作,并结合基础设施设备的整体使用情况进行综合考量,合理规划后续新增设备的布局。此外,在实行自维护模式期间,需要在技术、管理制度和人员三个层面做好全面部署,从而更好地发挥自维护模式的高效性。
  
一、设备管理与运维技术

  当数据中心启用时,配套的基础设施环境也随之搭建完成,此时,几乎贯穿整个数据中心生命周期的相应运行维护显得尤为重要,设备管理部门也应承担起为生产设备提供安全可靠物理环境的责任。

  工商银行数据中心(北京)设备管理部门实施自维护以来,对所属的三大基础设施类设备(分别为高低压类设备、生产机房精密空调、UPS)进行三个维度的维护保养工作,包括日常巡检、月度检查及年度检修。其中日常巡检是每日分三个时段对各类基础实施没备进行无遗漏现场实地巡查,查看设备运行参数和运行环境,确保设备安全可靠运行;月度检查是根据每日巡检情况将月度故障率较高的设备进行汇总、统一保养,并对各类使用设备进行预维护;年度检修则是有计划性地对各种基础设施类设备分时分段停机进行设备升级、清扫和一些需在停机后进行的保养工作。

  与此同时,拥有完善的监控系统是做好基础设施自维护工作的重要保障。监控系统是指在各类非智能设备端安装采集信号装置,使其与智能设备一同通过RS232、RS485或者SNMP等多种接口将数据采集传输到本地监控系统终端进行统一实时监控,并对监控范围内各类设备的非正常状态做出报警提示,以便自维护人员及时处理事件报警。其中,监控范围包括高低压配电系统、UPS、空调系统和安全与消防系统等。监控设备的动态情况和运行情况是确保机房安全,减轻运行维护人员工作负担,提高运维效率的有效技术手段,也是必要手段。

  除了设备的实时监控及三个维度的维护保养外,新技术的应用也是必然要考虑的问题。对于工商银行数据中心(北京)来说,成立时间较早,各种基础设施类设备在节能和使用情况上势必劣于现有设备,但基础设施类设备更新换代成本较大,这也促使将新技术应用在原有设备上的研究成为可能。

  举例来说,机房精密空调系统是生产辅助设备,但由于其需确保机房内温、湿度恒定,需24小时不间断工作,用电量惊人。为了改变这一现状工商银行数据中心(北京)在机房试点应用了机房冷通道封闭技术,该技术的优点在于将机房冷热气流分隔,避免冷热气流掺杂减少冷量浪费,实施冷通道封闭后,冷通道内保持恒温23℃,机房空调回风温度由原来23℃变为28℃,有效地降低了空调能耗。同时,我们还对空调室外机应用了雾化喷淋技术,此方法通过喷淋方式物理降低空调室外机周围温度,从而减少空调压缩机由于室外机散热不畅所导致的停机等故障,不仅降低了故障发生率还减少了能耗。可以说在结合具体工作的同时积极研究应用新技术,为设备生产运行安全提供了有力保障。
  
二、管理制度的制定和完善

  技术上的完备需要制度上的配合,制定符合实际情况的规章制度可以规避各类可预见性的风险事故。在基础设施的设备层面上,结合各类设备特点建立了设备的档案卡、操作手册、维护手册及应急手册,手册内容清晰具体,可参考执行性强,这样即可充分发挥其应有作用,每个手册上都记录了详细的具体操作步骤,图文并茂,任何非专业人员均可按照手册指导进行相关维护应急操作。在管理流程上建立有系统完善的体系,形成制度上的文件约束,从自维护实施以来,制定有《环境动力值班守则》,在该文件里规定了各项工作细则,明确了奖惩措施。并制定有年度工作细化表,根据此表可以将年度工作细化到季、将季度工作细化到月、将月度工作细化到周,从而依据时间计划表来进行日常维护、预防性维护和应急维护。不仅在文件和时问上进行了管理,在每日早晚交接班环节,设备主管领导会参加早晚交接班例会,根据每日情况调度人员实施维护操作工作,指定每项细化工作负责人,并按日汇报工作进展情况,达到人员合理管理使用。同时,根据基础设施设备类型,安排有明确的设备管理负责人和监督人,在出现突发情况时可以直接请示上级主管工程师,依据指示进行相关应急操作,避免混乱局面的发生。

  由于基础设施的自维护模式全部依赖自身资源,制度的健全性将直接决定运行维护的质量,完备科学的管理制度对于保障基础设施高可用性有很大的推动作用,从另一个维度上来说也是对技术的一种补充。
  
三、运维团队的人力资源管理

  技术的应用和制度的落实都是由具体执行人来实现的,因此在上述自维护的三个层面上,人员的作用是具有导向性的。人员的管理分配对自维护模式的长效运行起着至关重要的作用。首先,人员配置要符合基础设施正常运行维护的要求,杜绝出现一人多岗的现象,防止超负荷工作情况的发生;其次,在知识补充上要做到定期的技能培训和知识共享,使自维护人员拓展自己的知识领域。工商银行数据中心(北京)基础设施没备部是一只拥有近20人的知识型团队,团队成员入行时间不同,工作经验不一,因此,在维护期间经验丰富的老员工充分发挥了以老带新的作用,积极向新员工传授工作经验。此外,团队内每月定期召集团队所有成员进行技术培训,以提高维护人员专业技术水平和维护维修操作技能,不定期外派团队人员参加技术学习,并将所学知识以课程形式传授给团队其他成员,组织团队内各专业人员相互学习,形成一支专业高效的团队。而在自维护模式下,正常的值班工作必不可少,大量的重复性、基础性工作势必会使人产生枯燥感,这也会直接导致工作质量的下降,也会对维护人员造成一定的心理影响,利用设备正常运行时间来对参与自维护的人员进行考核评价,奖惩有据可依。

  除了提高人员技能外也需要做好人员监督管理,工商银行数据中心(北京)在基础设施设备巡检路线中安放有指纹采集设备,以指纹采集作为硬性要求来约束值班人员的行为,通过该采集系统可以查看每日巡检情况,有效避免了去而不查情况的发生。人员奖惩与监督管理的结合可以有效地调动自维护人员的工作积极性,从而达到高效稳定的工作效果。

  随着金融业对数据中心基础设施与自身安全防范的日趋重视,数据中心的自维护模式必将逐渐成为行业内多数企业的首选。同时,自维护模式作为一种节约人力成本、优化人力资源、提高运维工作效率的新途径、新方法和新尝试,相信只要做到技术改造以务实创新为原则、制度管理以规章实际为指导、人员管理以奖惩监督为依据,并使这三方面得以很好协作,基础设施必将实现高可用性的良好效果。
  
(文章来源:《中国金融电脑》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章